草庐IT

Python KMeans 聚类单词

全部标签

python - 匹配正则表达式的所有单词的列表

假设我有一些字符串:“Loremipsumdolorsitamet”我需要一个包含所有长度超过3个单词的列表。我可以使用正则表达式吗?例如pattern=re.compile(r'somepattern')result=pattern.search('Loremipsumdolorsitamet').groups()结果包含“Lorem”、“ipsum”、“dolor”和“amet”。编辑:我指的单词只能包含字母和数字。 最佳答案 >>>importre>>>myre=re.compile(r"\w{4,}")>>>myre.fin

python - 如何仅删除字符串中单个单词周围的括号

假设我有这样一个字符串:s='((Xyz_lk)somestuff(XYZ_l))(andevenmorestuff(XyZ))'我只想删除单个单词周围的括号,以便获得:'(Xyz_lksomestuffXYZ_l)(andevenmorestuffXyZ)'我如何在Python中执行此操作?到目前为止,我只能通过使用将它们与文本一起删除re.sub('\(\w+\)','',s)给出'(somestuff)(andevenmorestuff)'我怎样才能只删除括号并保留其中的文本? 最佳答案 re.sub(r'\((\w+)\)'

Python正则表达式删除所有包含数字的单词

我正在尝试制作一个Python正则表达式,它允许我删除包含数字的字符串的所有世界。例如:in="ABCDabcdAB5555CDA55D5555"out="ABCDabcd"删除号码的正则表达式很简单:print(re.sub(r'[1-9]','','Parisa55ab5555c555aaa'))但我不知道如何删除整个单词而不仅仅是数字。你能帮帮我吗? 最佳答案 你需要正则表达式吗?你可以做类似的事情>>>words="ABCDabcdAB5555CDA55D5555">>>''.join(sforsinwords.split(

python - Python scikit-learn 每次运行后聚类结果的变化

我有一堆句子,我想使用scikit-learn谱聚类对它们进行聚类。我已经运行了代码并毫无问题地得到了结果。但是,每次我运行它都会得到不同的结果。我知道这是启动的问题,但我不知道如何解决它。这是我在句子上运行的代码的一部分:vectorizer=TfidfVectorizer(norm='l2',sublinear_tf=True,tokenizer=tokenize,stop_words='english',charset_error="ignore",ngram_range=(1,5),min_df=1)X=vectorizer.fit_transform(data)#connec

python - 列出字典中以 <user input> 开头的所有单词

如何编写一个程序,让用户输入一个字符串,然后程序生成一个以该字符串开头的单词列表?例如:用户:“abd”程序:退位、收腹、外展...谢谢!编辑:我正在使用python,但我认为这是一个与语言无关的问题。 最佳答案 使用trie.将您的单词列表添加到trie中。从根到叶子的每条路径都是一个有效的词。从根到中间节点的路径代表一个前缀,中间节点的子节点是前缀的有效补全。 关于python-列出字典中以开头的所有单词,我们在StackOverflow上找到一个类似的问题:

python - 在python中读取文件后返回单词列表

我有一个名为test.txt的文本文件。我想阅读它并返回文件中所有单词的列表(删除换行符)。这是我当前的代码:defread_words(test.txt):open_file=open(words_file,'r')words_list=[]contents=open_file.readlines()foriinrange(len(contents)):words_list.append(contents[i].strip('\n'))returnwords_listopen_file.close()运行这段代码会产生这个列表:['hellotherehowiseverything'

Python 词袋聚类

编辑:这是给仍然有问题的人的完整代码github.com我正在尝试使用SIFT和BOW进行图像识别项目。到目前为止,我正在尝试训练和构建我的字典。我读入了来自5个不同类的图像,计算了描述符并将它们并排添加到python列表([])中。现在,我正在尝试使用Python版本的BOWMeansTrainer将我的描述符与k=5聚类(这是正确的吗?对于5个类?)。我正在尝试将cluster()传递给我的描述符向量,但出现错误Traceback(mostrecentcalllast):File"C:\Python27\Project2\beginning.py",line40,inbow.clu

python - 计算单词列表中的元音与单词长度比

这是我的函数的代码:defcalcVowelProportion(wordList):"""CalculatestheproportionofvowelsineachwordinwordList."""VOWELS='aeiou'ratios=[]forwordinwordList:numVowels=0forcharinword:ifcharinVOWELS:numVowels+=1ratios.append(numVowels/float(len(word)))现在,我正在处理超过87,000个单词的列表,这个算法显然非常慢。有更好的方法吗?编辑:我测试了以下类提供的算法@ExP:

python - 非英语单词的词形还原?

我想应用词形还原来减少单词的变形形式。我知道WordNet为英语语言提供了这样的功能,但我也有兴趣对荷兰语、法语、西类牙语和意大利语单词应用词形还原。有没有值得信赖和确认的方法来解决这个问题?谢谢! 最佳答案 试试CLIPS的pattern库,它们支持德语、英语、西类牙语、法语和意大利语。正是您所需要的:http://www.clips.ua.ac.be/pattern不幸的是,它只适用于Python2,尚未提供对Python3的支持。 关于python-非英语单词的词形还原?,我们在S

python - 比较/聚类轨迹((x,y)点的 GPS 数据)和挖掘数据

我有2个关于分析GPS数据集的问题。1)提取轨迹我有一个庞大的记录GPS坐标的数据库,格式为(latitude,longitude,date-time)。根据连续记录的日期时间值,我试图提取此人遵循的所有轨迹/路径。例如;假设从时间M开始,(x,y)对不断变化,直到时间N。在N之后,(x,y)对的变化减少,此时我得出结论,从时间M到所走的路径>N可以称为轨迹。在提取轨迹时,这是一个不错的方法吗?您是否可以建议任何众所周知的方法/方法/算法?您是否有任何数据结构或格式建议我以有效的方式维护这些要点?也许,对于每个轨迹,计算出速度和加速度会有用吗?2)挖掘轨迹一旦我有了所有的轨迹/路径,我